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摘 要 : 针对 图 像 标 注 和 Attention 机 制 结合 过 程 中 特征 选择 不 充分 和 预测 过 程 中 对 空间 特征 权重 比例 不 足 问题 ， 提 出 
了 一 种 结合 空间 特征 的 注意 力图 像 标 注 方法 。 首 先 通 过 卷 积 神经 网 络 得 到 图 像 特征 ， 特 征 区 域 与 文本 标注 序列 匹配 ; 
然后 通过 Attention 机 制 给 标注 词汇 加 权 ， 结 合 空间 特征 提取 损失 函数 得 到 基于 空间 特征 注意 力 的 图 像 标 注 ; 最 后 分 别 
在 Flickr30k 和 COCO 两 个 数据 集 上 进行 验证 ， 通 过 可 视 化 显示 该 模型 如 何 自动 学 习 显 著 区 域 并 生成 相应 的 词汇 输出 
序列 。 实 验 结果 表明 ， 该 方法 能 较 好 地 提取 注意 力 区 域 并 给 出 标注 ， 与 其 他 模型 对 比 能 够 得 到 更 好 的 标注 结果 。 
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Improved algorithm for image attention annotation combined with spatial features 
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Abstract: Aiming at the problem of insufficient feature selection and lack of spatial feature weight in the process of image 


annotation and Attention mechanism, this paper proposed a method of attention image annotation combined with spatial feature. 


Firstly, it obtained the image feature by convolution neural network, and matched the feature region with the text label sequence. 
Then, it used the Attention mechanism to weight the annotation vocabulary, and combining the spatial feature to extract the loss 


function, the image annotation based on the spatial feature attention. Finally, the Flickr30k and COCO validated on the data set 


to show how the model automatically learns the salient regions and generates the corresponding vocabulary output sequences. 
The experimental results show that the method can extract the attention area and give the annotation, and compare with other 
models can get better labeling results. 


Key Words: Visual attention; image annotation; spatial feature 


提取 和 标注 。Xu 55: ADPÉEHE 2 73 Ut] H FERAI BRIA 

词汇 ,提出 了 基于 LSTM 模型 的 隐 状 态 结合 视觉 注意 力 的 模型 。 

机 器 翻译 中 序列 到 序列 、 编 码 器 解码 器 框架 的 成 功 应 用 由 ”该 模型 也 是 目前 发 展 比较 成 熟 的 基于 注意 力 的 图 像 标注 模型 。 

为 图 像 标 注 领域 提供 更 好 的 实现 和 使 用 。Kiros 等 人 外 提出 一 种 ”Yang 等 人 [9 扩展 当前 注意 力 编码 器 解码 器 框架 ,加 入 验证 网 络 ， 
多 模 态 对 数 双 线性 模型 前 馈 神经 网 络 预测 下 一 个 标注 词汇 。 用 向 量 捕捉 全 局 属性 加 入 解码 器 机 制 。You[] 和 Wu 等 人 外 使 用 
Vinyals 等 人 BI 使 用 LSTM 代替 RNN 作为 解码 器 ， 最 后 使 用 — LSTM 的 输入 或 输出 来 处 理 语义 几何 图 像 视 觉 注意 力 属 性 的 问 
CNN 全 连接 层 输出 图 像 标注 。Karpathy 等 人 外 将 物体 检测 结果 ” 题 ， 也 得 到 了 不 错 的 效果 外 19。 
从 R-CNN 和 双向 RNN 输出 ， 得 到 标注 排序 和 联合 嵌入 空间 。 本 文 方法 主要 通过 卷 积 神经 网 络 训练 提取 且 对 网 络 中 的 空 
近 些 年 注意 力 机 制 被 引入 编码 器 解码 器 神经 框架 得 到 了 更 好 的 。 间 特 征 因子 权重 增加 提取 , 使 用 Attention 机 制 的 LSTM 模型 作 
图 像 标注 效果 ， 注 意 力 机 制 由 机 器 翻译 发 展 而 来 ， 将 人 类 神经 ”为 编码 器 解码 器 ， 以 注意 力 加 权 结 合 空 间 特 征 进行 图 像 标 注 
注意 力 因素 考虑 到 对 图 像 的 标注 中 使 得 图 像 中 的 信息 更 好 的 被 。 得 到 基于 空间 特征 注意 力 的 图 像 标 注 结果 ， 最 后 通过 可 视 化 展 
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示 注 意 力 权重 与 图 像 标注 结果 及 其 分 析 。 
1 ”相关 概念 


1.1 Attention 编码 器 解码 器 

Attention model (注意 力 模 型 ) 是 一 种 模拟 人 脑 注意 力 的 模 
型 ， 其 核心 为 Encoder-Decoder 过 程 。Encoder-Decoder 模型 是 
种 经 典 的 自然 语言 处 理 模 型 ， 主 要 是 通过 Encoder 模块 对 于 
输入 序列 进行 编码 得 到 编码 之 后 的 code， 然 后 将 code 输入 到 


Decoder 模块 进行 解码 ， 最 后 输出 特定 的 序列 。 1 给 出 了 
Encoder-Decoder 模型 的 一 般 框 架 。 
input—»| Encoder code——» Decoder |——output—3*» 


图 1 编码 器 解码 器 模型 框架 


Input — $k Z& JF 9 X 2(x.,2,2,....x,) , output 是 序列 
Y -(y. Y Y,-Y,) o TE Encoder 模块 对 输入 序列 进行 编码 ， 用 
C 表示 编码 之 后 的 code， 表 达 公 式 为 : Co FG, XXX) o 
在 Decoder 模块 对 C 解码 , 计算 输出 y, 要 用 到 C 和 之 前 生成 的 
Yos VeV VERSA: y, 56C, y. ys yy) 。 由 此 可 
以 看 出 在 Decoder 模块 中 计算 输出 多 时 ， 用 到 的 语义 信息 都 是 


v, 


1879 av 对 总 体 


X4, X 


少 非 关键 词 对 于 整体 语义 的 影响 。 


将 Attention 机 制 加 入 Encoder-Decoder 有 
别 为 计算 注意 力 概 率 分 布下 的 语义 编码 及 特征 向 量 


步骤 如 下 : 


Chi 
F: 一 种 结合 空间 特征 的 图 像 注 意 力 标注 算法 改进 研究 


的 影响 力 权重 , 可 以 突出 关键 词 的 作用 , 减 


个 计算 过 程 分 


& Rip 


a) 计 算 注 意 力 分 布 概率 的 语义 编码 ， 主 要 思想 是 计算 历史 


节点 和 最 后 输入 节点 的 关系 分 数 ,然后 计算 
通过 以 下 公式 得 到 了 每 一 个 输入 对 于 


计算 公式 如 


其 中 : 4 表示 节点 i 对 于 节点 K 的 注意 力 概 率 权重 ; 


权重 矩阵 ; 


第 i 个 元 素 对 应 


F: 


5 总 体 分 数 的 比重 


F 最 后 输入 的 注意 力 概率 。 


_ exp(e,) 
Nx exp(e,) 0) 
eu = vtanh(Wh, + Uh, +b) (2) 
v, W,U 为 


及 为 最 后 输入 对 应 的 隐藏 层 状态 ， 几 表示 输入 序列 


的 隐藏 层 的 状态 值 。 


b) 计 算 注 意 
编码 C 主要 是 通过 浪 


状态 乘积 的 


的 输入 , 最 后 节点 的 隐藏 


712 


E 意 力 概率 权 习 


概率 的 语义 编码 和 特征 向 量 。 


与 历史 输入 节点 的 隐藏 


其 中 语义 


Ml 


累加 得 到 。 最 终 的 语义 编码 是 将 含有 历史 节点 的 注 
意 力 概率 分 布 的 语义 编码 和 文章 总 体 向 量 作为 传统 LSTM 模块 


一 样 的 ,对 于 较 长 序列 的 输入 ,由 于 语义 编码 code 向 量 的 维度 
限制 ， 部 分 有 效 信息 被 丢失 。 

引入 的 Attention Model 机 制 原理 在 Decoder 阶段 计算 出 输 
AFF] x, 2x... x OSEE A RU An HR. y, NEER, Xi 
应 唯一 的 语义 编码 信息 ， 这 种 编码 信息 融合 了 输入 对 当前 输出 
的 注意 力 概 率 分 布 , 可 以 优化 当前 的 输出 。 加 入 Attention Model 
的 Encoder-Decoder 模型 的 框架 示意 图 如 图 2 所 示 。 


Encoder 


[Y 
输入 序列 


图 2 AM 框架 


从 图 2 中 可 以 看 出 ， 每 个 输出 元 素 都 有 对 应 输入 序列 概率 
分 布 的 语义 编码 C 。 因 此 对 于 输出 ， 可 以 得 到 这 样 的 计算 公 
式 ; VEE, Yo yy) o AP: C,» 是 对 输入 序列 
2 在 编码 阶段 进行 非 线性 函数 转换 得 到 ， 对 于 输入 
XS) 表示 在 编码 阶段 经 过 函数 处 理 之 后 的 值 。 编 码 阶段 得 
到 输入 序列 对 应 状态 值 ， 然 后 计算 出 状态 值 对 于 输出 y, 的 注意 
力 概 率 分 布 。 再 根据 注意 力 概率 分 布 计算 出 对 应 C, 。 计 算 公式 


H: C2» asa). Hp: 


a, TERNA Xo i Hb y, 的 注意 力 概 


特征 向 量 ， 


语义 信息 山 表 。 计 算 公式 如 下 : 


1.2 


空间 特征 


股 地 


的 卷 积 层 (convo 


ERSE H, 就 是 最 终 的 特征 
包含 了 历史 输入 节点 的 权重 信息 ， 突 出 了 关键 词 的 


向 量 。 该 


C-Yah G) 


H, - H(C,h,, X") (4) 


， 用 卷 积 神经 网 络 来 抽取 图 像 特 征 ， 通 过 多 个 串 行 


方式 逐 层 学 


习 图 像 数 据 特征 。 采 用 


尺寸 卷 积 核 扫 描 整 个 图 像 


lution layem) 和 池 化 层 (pooling layer) M) IE AEZ HI 


空域 上 子 


网 络 
分 类 


空间 特 


EA 
H& 7J o 


de 
结合 


最 项 


分 。 图 像 数据 的 习 


存在 着 明显 


层 将 所 有 得 至 


卷 积 操作 方式 利 
计算 卷 积 核 与 图 像 局 部 位 置 权重 之 

和 。 每 个 卷 积 都 对 应 一 个 特征 映射 ， 随 后 被 输入 到 池 化 层 进行 
样 (subsample)， 使 得 卷 积 神经 网 络 具 有 
| 的 特征 映射 重新 拉 成 一 维 向 量 
可 归 分 类 器 反 向 传播 错误 信号 来 调整 网 络 参数 。 

征 是 静态 图 像 中 物体 目标 的 空间 判断 能 力 的 重要 部 


小 于 图 像 


定 抗 畸变 


EE 要 特性 即 数据 在 空域 (两 维 ) 和 时 域 (一 维 


的 统计 相关 


生 。 在 图 像 标 注 


领域 中 大 多 是 使 用 


起 相关 信 


前 全 特征 提取 存在 明显 缺陷 即 数据 进入 网 络 拉 成 一 
。 这 破坏 了 空域 和 时 域 上 的 相对 位 


关系 ， 可 能 会 


EER, 会 产生 图 像 中 


标 空 间 方 位 判断 失误 ， 抽 


下 可 能 引入 了 


计算 两 帧 之 | 


个 并 行 卷 积 


率 ; 7 为 输入 序列 的 元 素 的 数目 。 这 样 设 计 的 原理 是 计算 出 


学 习 到 时 域 动态 空间 特 条 
里 空域 特征 上 的 优势 [9 。 


其 他 无 关 信 息 。 
司 的 逐 元 素 乘 积 来 抽取 时 域 特征 ， 使 用 多 
层 抽取 特征 ， 再 计算 这 些 特 征 的 两 两 逐 元 素 乘 。 这 


神经 元 间 的 乘法 交互 (multiplicative interactions) 模 型 可 以 显 


FE， 同时 保留 了 卷 积 神经 网 络 在 处 
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2 ”模型 构建 


2.1 基于 Attention 的 编码 器 解码 器 整体 架构 

图 3 所 示 基 于 注意 力 机 制 的 循环 网 络 编码 解码 整体 架构 。 
首先 分 析 和 表示 图 像 提 取 视 觉 特 征 的 多 个 视觉 区 域 ， 然 后 采 / 
视觉 特征 经 Attenion LSTM 结构 即 加 入 了 Attention 机 制 编码 器 
器 的 LSTM 网 络 来 预测 不 同 区 域 的 序列 ， 最 后 得 到 基于 视 
觉 注意 力 的 标注 词语 生成 序列 。 该 模型 可 以 看 成 是 对 高 维 原始 
输入 数据 编码 之 后 再 解码 成 低 维 抽象 特征 的 过 程 ， 通 过 编码 器 
一 解码 器 框架 处 理 各 模块 之 间 的 关联 09。 


E: 
iH 
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i 
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图 3 模型 架构 


2.2 编码 器 : 卷 积 特征 
模型 获取 单个 原始 图 像 并 生成 标注 编码 为 1~K 的 编码 单词 
序列 。 


Y= yp. Yc}, x; e R* G5) 


其 中 :天 是 词汇 表 大 小 ，C 是 标签 长 度 。 使 用 CNN 提取 作为 
特征 向 量 的 注释 向 量 w ， 提 取 器 产生 工 个 向 量 ， 对 应 图 
同 空间 位 置 特征 用 D 维 向 量 来 表示 。 


a - (a,,...,aj], a, e R^ (6) 


为 了 获得 特征 向 量 和 部 分 图 像 对 应 关系 ， 将 逐 层 卷 积 得 到 
的 特征 图 直接 通过 全 连接 层 输入 到 包含 512 个 神经 单元 的 下 一 
隐藏 层 。 这 使 得 解码 器 选择 性 地 聚焦 于 图 像 的 某 些 部 分 ， 并 且 
加 权 所 有 特征 向 量子 集 0 18, 
2.3 解码 器 : Attention LSTM 网 络 

将 视觉 注意 力 机 制 引入 到 网 络 中 ， 使 得 每 个 时 刻 可 以 自 适 
应 地 将 注意 力 集中 于 当前 画面 中 面积 相对 较 小 但 具有 丰富 信 ， 
的 图 像 区域 ， 从 而 加 快 模型 解码 速度 。 使 用 LSTM 网 络 做 解码 


说 


i, -o(WEy, +Uh, +2z +b,) 
f=o(W,Ey,,+U,h,+2,z, +b,) 


c, = fic, +i tanh(W Ey, , +U, h +Z,z, € b.) (7) 
o, - c(W, Ey, , +U h +Z,z, +b,) 
h, =0, tanh(c,) 


其 中 i,,6,0,h 分 别 是 LSTM 的 输入 门 、 遗 忘 门 、 记 忆 单 元 、 
输出 门 和 隐 层 状态 表示 ; W,U,Z,b 是 权重 矩阵 和 偏差 ; 
EeR” JE BR ABE; c 是 sigmoid 函数 ; 上 下 文 向 量 
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z=) aa 是 一 个 动态 向 量 表 示 在 上 时 刻 相 关 部 分 图 像 的 特 


a, 表示 在 时 刻 t 中 视觉 向 量 4 加 权 ， 定 义 如 式 (8) 所 示 P9。 
前 过 平均 注释 向 量 来 初始 化 存储 状态 和 隐藏 状态 ， 通 过 


fu, C hu) 是 注意 力 函 数 ， 在 隐 层 状态 及 ,下 决定 分 配给 图 


HIE a, 的 注意 力 数量 , 其 中 》 ”a =1。 输出 词汇 的 概率 由 图 


L , 
通过 模型 w = (a)... 生成 。 具体 来 说 , 正 例 验 


两 个 分 类 的 MLPs 得 到 ， 如 (9) 所 示 。 


exp(e ) 
Dexple,) 


e, = fan (a hi.) (8) 


«7f Xa) hof o) 


、 前 一 时 刻 的 词汇 y, 和 隐 层 状态 h 共同 决定 ， 
Pe G 是 学 习 人 参数。 除 此 对 应 有 损失 函数 LL ， 对 词 
Wo) 的 负 采 样 对 数 概 率 ， 如 式 (11) 所 示 。 

Y, |d. y,,) £ exp(G, CEy, , + G,h, +G.z,)) (10) 


, 7 —log pw |a. y, ) (11) 


力 通 
注意 力图 B={B},, ,由 正 例 验 证 标注 给 出 且 


DB,=1. 一 旦 》 B 23a, 21; 可 以 认为 是 两 个 注意 力 概 


Hide e X ii Arpa. LT ULCUS 55 ER 


区 域 对 齐 的 单词 (如 “of”，“is”) , WELL, 0: 


-57 loga 3 
b=) Las Pope, BAw a2) 
(0) otherwise 
故而 总 损失 变 成 两 个 损失 项 的 加 权 和 : 
Ley do AX Lan (13) 


空间 驱动 注意 力 


空间 因素 中 是 图 像 注意 力 中 比较 重要 的 因素 , 如 本 文 1.2 节 
之 原因 ， 故 本 文 将 空间 特征 因素 加 入 注意 力 模型 ， 从 而 


如 像 标注 与 生成 。CNN 最 后 一 层 ResNet 尺寸 为 
A={a,.…,4}, a, e RW 代表 全 连接 层 空 间 卷 积 特 
其 每 个 栅 格 位 置 ， 故 全 局 图 像 特征 表示 为 


--Ya (14) 


W, 和 W, 是 权重 参 


全 局 图 像 特 征 。 使 用 单 层 感知 机 和 激活 函数 调整 
数 ， 得 到 新 的 特征 向 量 : 
v, -ReLU(Wa) 
v! =Re LU (W,a*) 


o 


(13) 


空间 特征 最 终 为 V=[v,…,v] v e 9t", fp EHI d 维 


pi 


其 中 : f 是 注意 力 函 数 ， 空 间 图 像 特征 Ve R”“ 和 LSTM 隐 层 
“， 经 过 单 层 神经 网 络 由 softmax 函数 在 图 像 上 得 到 


应 图 像 部 分 ， 故 空间 注意 模型 计算 LSTM 的 上 下 文 向 


c, 2 f(V,h) (16) 
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含 注 意 力 分 布 的 大 个 区 域 的 空间 特征 图 像 : 
z, =w; tanh(WV + (Wh XY) (17) 
&, = soft max(z,) (18) 
le R* 是 所 有 元 素 置 为 1 的 向 量 ，W,W, e9v*w, eR 是 学 
习 参 数 ，w e R' 是 在 Y 中 特征 注意 力 权 重 。 基 于 注意 力 分 布 ， 
上 下 文 向 量 c 可 以 如 下 表示 : 
c, 三 Yea, (19) 
c, fll h, 的 组 合 被 用 来 预测 下 一 个 词汇 yw，。 用 当前 的 隐藏 
REL 分 析 注 意 哪 里 ， 结 合 两 种 信息 源 预测 下 一 个 词汇 。 生 成 
上 下 文 向 量 c 可 作为 当前 隐 层 状态 有 的 视觉 残 差 信息 ， 从 而 减 
少 当前 隐 层 状态 预测 下 一 词汇 的 不 确定 性 。 


3 ”实验 及 结果 分 析 


3.1 实验 设置 及 评价 指标 

使 用 Flickr30k 和 COCO 两 大 开源 数据 集 来 进行 本 文 实验 。 
Flickr30k 包含 Flickr 收集 的 31 783 张 图 片 , 图 像 大 多 描述 了 人 
类 日 常 活动 都 已 被 人 工 标 注 ， 每 个 图 像 对 应 五 句 标 注 描述 。 
COCO 是 目前 使 用 最 多 的 图 像 标 注 数据 集 ,包含 82 783、40 504、 
40 775 幅 图 像 ， 分 别 用 于 训练 、 验 证 、 测 试 。 因 全 部 图 像 训 练 
时 间 过 长 ,所 以 随机 抽取 其 中 一 部 分 融合 起 来 作为 实验 数据 集 。 
将 数据 集 分 为 三 部 分 : 4000 幅 的 训练 图 像 、500 幅 的 验证 图 像 
以 及 500 幅 测 试图 像 ， 同 样 每 个 图 像 对 应 有 五 句 信 工 标 注 。 验 
证 图 像 主要 用 于 确定 模型 参数 ， 待 参数 确定 后 ， 验 证 集 里 所 有 
图 像 放 入 训练 集中 R12。 实验 平台 为 HP 台式 机 ， 硬 件 配置 为 
3.2 GHz 的 Inteli5 CPU、4.0 GB 内 存 , 操作 系统 为 Ubuntu 14.0, 
次 件 环 境 为 MATLAB 2014a 及 python 2.7。 图 像 标 注 生 成 常用 
的 评价 指标 为 BLEUP3 值 ， 本 实验 依 此 进行 评价 ， 除 BLEU 之 
外 ， 另 一 种 常见 评价 指标 METEORP31 和 CIDEr29 。 评 佑 
Flickr30k 和 COCO， 与 现 有 的 MSMP29，Hard-AttentionD] 以 及 
DeepVS 中 进行 部 分 比较 。 

3.2 ”实验 结果 分 析 

所 有 实验 情况 参数 设置 等 细节 严格 遵守 Xu 等 人 铝 的 模型 。 
本 文 调整 图 像 的 大 小 短 边 为 256 像素 ， 中 心 区 域 裁剪 成 224 x 
224 像素 。 预 训练 ImageNet 之 后 提取 VGG19 网 络 中 conv5 4 
特征 , 顶层 卷 积 层 尺寸 为 14x 14. 为 了 可 视 化 注意 力 模型 权重 ， 
上 采样 权重 因子 为 2*=16, 使 用 高 斯 滤波 器 模拟 感受 野 大 小 。 设 
E CNN 卷 积 迭代 次 数 为 15 000 次 ， 训 练 文本 向 量 矩 阵 迭 代 次 
数 为 15 000 次 ; 为 了 避免 过 度 拟 合 ， 设 置 CNN 的 权重 下 降 速 
率 为 103。LSTM 语言 模型 的 学 习 率 为 4x104;， 设置 更 新 权重 
参数 为 & =0.8、 =0.999。 进 行 随 机 梯度 下 降 非 正则 化 训练 ， 
为 数据 源 Flickr30k 设置 1300 个 LSTM 单元 , COCO 数据 集 为 
1 800 个 。 


t 


在 Caffe 框架 下 使 用 Zhang 等 人 P9 提 供 的 开源 代码 训练 程 
序 得 到 的 效果 如 图 4 所 示 。 基 于 注意 力 模型 的 图 像 语义 生成 标 


正 样 例 ， 意 ， 颜 色 越 


在 图 中 重点 注意 力 在 于 三 个 人 的 特征 注 


[mi 
EI 


AM, di 一 种 结 


c 


深 的 地 方 表示 注意 


JIE 


ChinaXiv& fi 


F! 
S & 2 AE EE LUE, 


EBRR, WU “man” 4l “boy” SWE 


权重 较 其 他 来 说 略 高 一 


ü 


两 人 物 关 系 因 加 入 空间 特征 ， 故 


Pez 


而 在 同 


时 注意 区 域 推 


上 ， 故 而 推 
语句 词 


Input 


图 5 为 实验 结果 对 比 。 加 入 了 空间 因素 ， 可 以 看 出 对 于 注 


测 


测 为 父亲 ， 
汇 逻 辑 预测 成 果 。 


可 能 为 夫妻 关系 ， 男 性 注 


意 力 在 男孩 身 


E 测 的 标注 词汇 来 源 于 训练 集中 的 现 有 


chair 


意 力 权重 和 空间 判 出 

三 种 现 有 模型 下 的 当 
比 Hard Attention. 模型 范围 疯 
特征 去 除 及 加 深 相 关 特 征 


特征 识别 更 为 典型 的 代表 ， 对 于 


stop sign 


进一步 将 标注 


ETE. B 
E 意 力 对 比 。 对 于 STOP 标志 的 注意 力 权 重 


5 展示 在 同一 个 交通 标志 在 


c 


距 小 ， 因 加 入 的 空间 特征 对 无 关 


Ours 


权重 的 缘故 ， 所 以 比 起 DeepVS 是 全 


颜色 空间 过 度 识别 。 


Hard Attention 


Deep VS 


图 5 实验 比较 


生成 对 


立 空 间 注意 力 关 系 可 视 化 对 应 如 图 6 


所 示 。 非 注 


冠 词 


类 词 


意 力 词汇 例如 “of” 对 划 
之 后 很 有 可 能 
汇 分 配 注意 概率 


给 出 


重点 名 词 ， 如同“ 
5 重 比 非 注意 力 词 


Lu 


进行 注意 力 关注 提 升 , 因为 


riding”“elephant” 之 
上 下 文 场景 环境 


汇 大 。 


不 同时 ， 同 词汇 分 配 的 视觉 注意 概率 度 也 是 不 同 的 。 例 如 词汇 


[1 a" 


的 开 


iH 


较 高 标注 概率 ， 因 无 背景 上 下 文 需 


通常 在 文章 


要 LSTM 保存 信 


息 再 判断 。 


man riding on 


top of an elephant 


0.94 


0.844 0.956 0.808 


0.795 0.781 


0.589 . 


a man sittingona couch using a computer 


区 | 


6 词汇 生成 过 程 
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表 1 注意 力 模型 比较 /2% 
Flickr30k MS-COCO 平均 正确 率 

模型 

B-1 B-2 B-3 B-4 M C B-1 B-2 B-3 B-4 M C Flickr30k  MS-COCO 
DeepVS 0.572 0.367 0.241 0.158 0.154 0.248 0.628 0.451 0.322 0.231 0.198 0.678 0.627 0.911 
Hard- 

0.668 0.438 0.286 0.189 0.187 0.185 0.719 0.547 0.358 0.251 0231 - 0.643 0.906 
Attention 
MSM - - - - - - 0.725 0.561 0.423 0.326 0.250 0.987 0.551 0.923 
Ours 0.671 0.442 0.257 0.190 0.194 0.255 0.731 0.570 0.334 0.331 0.257 0.990 0.657 0.925 


如 表 1 所 示 的 结果 ， 


对 Flickr30k 和 COCO 的 数据 集 ， 使 
用 M 表示 METEOR 指标 ， 用 C 表示 CIDEr 指标 ， 


使 用 


代表 本 文 实验 。 与 没有 加 入 空 


E 注 意 力 模型 的 算法 进行 比 


间 特 生 
较 , 本 文 融 入 空间 注意 力 模型 


H, 本 文 方法 BLEU-4 得 分 从 0.326 


局 部 性 能 上 稍 优 于 其 他 注意 模型 。 
在 Flickr30k 数据 集 上 ，CIDEr 得 分 值 从 0.248 提高 至 0.255; 

在 COCO 数据 集 上 为 从 0.987 提升 至 0.990。 在 COCO 数据 集 
提高 到 0.331, METEOR 从 


0.250 到 0.257。 标 注 模 型 所 BLEU 指标 相 比 基线 有 所 提升 。 模 


型 在 Flickr30k BLEU-1 评分 提升 (0.671-0.668)/0.668 = 0.496; 


COCO BLEU-2 评分 提升 (0.570-0.547)/0.547 & 4.2%。 从 表 1 可 


以 看 出 ， 在 准确 率 方 


面 本文 方法 有 较 好 的 标注 效果 ， 


在 


Flickr30k 数据 集 下 ， 经 过 训 
19.225; MS-COCO 数据 集 


练 和 随机 局 
提升 有 2.196. 


部 结果 


由 样 比 对 提升 了 


对 上 述 模型 计算 复杂 度 比 较 ， 本 文 将 各 模型 在 两 大 数据 外 
长 度 为 20 个 字符 以 内 
结果 如 表 2 所 示 。 在 表 2 中 ， 
他 模型 运 
0.039~0.320 s， 在 Flickr30k 数据 上 相对 增 量 


中 随机 抽样 测试 1000 张 , 1 
平均 标注 时 间 进 行 比较 ， 
行 所 需 时 间 相 比 其 


法 运 


行 时 


vint 


的 单 张 图 像 对 
本 文 算 
间 增 加 的 幅度 在 
为 0.11%， 在 MS- 


COCO 上 为 0.02%， 整 体 平均 增 量 为 0.07%， 尚 未 达到 1%， 可 


见 本 文 算法 复杂 度 的 增加 在 可 承受 的 范 


m 
puy 


模型 的 整体 基于 空间 注意 力 融合 


标注 


局 部 


性 


内 。 综 合 评分 指标 ， 


能 上 较 优 ， 它 具备 


定 实 | 


价值 。 


表 2 数据 和 


fuus 


上 平均 运行 时 间 /s/ 张 


模型 


DeepVS Hard-Attention 


MSM Ours 


Flickr30k 2.039 


MS-COCO 4.483 


2.217 
4.334 


2.864 2.359 


5.847 4.5222 


4 ARE 


本 文 在 以 前 工作 的 基础 
融入 空 


上 提出 了 一 种 有 效 针 对 图 像 的 视 
间 特 征 注意 力 模型 ， 能 够 很 好 地 


is E cnn 


及 引 注 意 


IRR 


区 域 的 情况 。 首 先 通过 


X 域 标注 nu 使 用 


Attention 


经 网 络 得 到 
I LSTM 


像 特征 ， 特 征 


iss, 


以 注意 力 加 权 结 合 空间 特征 进行 


于 空间 特征 


注意 力 的 图 像 标注 生成 结果 


关 方法 相 比 ， 本 文 所 提出 的 算法 在 标注 


» 
E SES c Š 


模型 作为 编码 器 
E， 最 终 得 到 


iM 


L SE 
"t Hé 


实验 结果 表明 ， 与 相 
上 取得 了 一 定 的 效 


p 


,但 是 从 整体 评估 和 独创 性 方面 来 看 还 


需要 很 


多 的 改进 工作 。 
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